Optimización de políticas sin valor mediante partición de recompensas Descubre RPO, un método que elimina la función de valor en optimización de preferencias. Más estable, diverso y con menos toxicidad que DRO y KTO. Ideal para alinear LLMs. 2026-06-02 · 1 min